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网 络 攻击 检测 的 门 控 记忆 网 络 方法 
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摘 Xi 针对 互联 网 大 规模 网 络 攻击 检测 难题 ， 结 合 词 向 量 特征 表示 与 循环 神经 网 络 ， 提 出 了 一 种 门 控 记 忆 网 络 检测 
方法 。 该 方法 首先 将 网 络 请 求 数 据 转换 为 低 维 实 值 向 量 序列 表示 ， 然 后 利用 门 控 循 环 神经 网 络 的 长 时 记忆 能 力 提取 请 
求 数据 的 特征 ,最 后 采用 逻辑 斯 特 回归 分 类 器 实现 了 对 网 络 攻击 的 自动 检测 。 在 CSIC2010 公开 数据 集 上 ,达到 了 98.5% 
的 10 折 交 又 验证 Fl 分 数 。 与 传统 方法 相 比 ， 较 大 幅度 地 提高 了 网 络 攻击 检测 的 准确 率 和 召回 率 。 所 提 方 法 可 自动 检 
测 网 络 攻击 ， 具 有 良好 的 检测 效果 。 
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Gated memory network approach for Web attack detection 


Wang Jiabao, Xu Weiguang, Zhou Zhenji, Li Yang, Miao Zhuang 
(Army Engineering University of PLA, Nanjing 210007, China) 


Abstract: To solve the problem of large-scale network attack detection, this paper proposed a gated memory network method, 
based on word vector feature representation and recurrent neural network. Firstly, the proposed method transformed the network 
request data into low-dimension real-value vector sequence representation. And then, it extracted the features of request data by 
using the memory ability of gated recurrent neural network. Finally, it adopted the logistic regression classifier to achieve 
automatic detection of network attack. On the CSIC2010 public data set, this method achieves 98.5% 10-fold cross-validation 
Fl-score. Comparing with traditional methods, it can effectively improve the precision and recall rates for detecting network 
attack. The proposed method can detect network attacks automatically and has good detection results. 


Key words: network attack detection; low-dimension real-value vector representation; gated recurrent neural networks 


用 分 类 器 直接 进行 检测 。 该 类 方法 可 直接 针对 网 络 通信 流 数 据 
进行 ， 对 发 现 的 异常 通信 数据 直接 处 理 或 丢弃 ， 避 人 免 攻 击 行为 

随 着 互联 网 规模 的 不 断 发 展 ， 网 络 攻击 已 成 为 各 国安 全 部 。 对 主机 造成 影响 。 
门 和 企业 面临 的 重大 问题 ,由 于 网 络 攻击 手段 多 样 、 类 型 各 异 ， 基于 模式 分 类 的 检测 方法 是 本 文 研究 的 重点 。 目 前 该 方法 
且 极 易 变 种 ， 导 致 对 网 络 攻 击 的 检测 也 面临 着 巨大 困难 。 针 对 ”主要 是 借鉴 文本 分 类 技术 ， 通 过 提取 内 容 的 描述 特征 ， 将 网 络 
互联 网 大 规模 的 网 络 通信 行为 ， 如 果 能 够 自动 地 判断 通信 行为 。” 攻击 检测 问题 转换 为 模式 分 类 问题 进行 处 理 。 其 中 特征 表示 方 
的 恶意 性 ， 则 可 以 有 效 地 避免 网 络 攻击 行为 产生 的 破坏 及 其 可 法 主要 包括 词 袋 (Bag-of-Words) 表 示 由 、TF-IDF zéziP!, n-gram 
能 的 次 生 灾 害 。 目 前 ， 针 对 网 络 攻击 行为 的 检测 主要 分 为 基于 KRN, 分 类 检测 方法 主要 包括 贝 叶 斯 趾 、 决 策 树 外、 支持 向 量 
模式 匹配 的 检测 和 基于 模式 分 类 的 检测 趾 。 前 者 是 当前 大 多 数 。 ”机 B40、 多 层 感知 机 23、 开 - 近 邻 D] 等 经 典 机 器 学 习 方 法 。 
网 络 安全 软件 的 主要 手段 ， 即 通过 模式 匹配 或 统计 分 析 判 断 系 近年 来 ， 随 着 深度 学 习 的 发 展 ， 特 征 表 示 与 分 类 识别 研究 
统 或 网 络 日 志 中 的 不 正常 行为 ， 如 登录 不 期 望 的 位 置 、 访 问 未 内 容 均 得 到 了 新 发 展 。 在 文本 特征 表示 方面 ， 谷 歌 研究 组 提 昌 
授权 文件 、 网 络 流量 异常 、 程 序 行为 异常 等 中。 该 类 检测 方法 通 的 word2vec 模型 能 够 将 传统 高 维 的 one-hot 词 向 量 表示 转换 为 
常 是 在 攻击 行为 发 生 或 事后 进行 的 检测 ， 无 法 在 事前 和 事 中 进 ”” 低 维 实 值 向 量 表示 ， 改 变 了 文本 词 的 表达 能 力 ， 使 得 词 与 词 之 
行 预先 检测 判断 。 后 者 ; 
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得 到 了 很 好 的 应 用 09， 但 主要 限于 与 文本 词 内 容 的 相关 研究 。 
对 于 网 络 通信 而 言 ， 基 于 网 络 协议 的 通信 请 求 是 由 字符 串 组 成 
的 流 序列 ， 可 以 被 转换 为 文本 词 序列 以 低 维 实 值 向 量 序 列 进行 
表示 。 同 时 ， 对 于 产生 的 序列 数据 ， 循 环 神经 网 络 (recurrent 
neural network, RNN) 和 门 控 循 环 神 经 网 络 (gated RNN) 具有 
良好 的 建 模 能 力 ， 并 在 文本 分 类 079、 入 侵 检测 089、 机 器 翻译 091 
等 领域 得 到 了 广泛 应 用 。 

受 低 维 实 值 词 向 量 模型 04253 和 门 控 循环 网 络 模型 吧 29 的 启 
发 ， 本 文 提 出 了 一 种 网 络 攻击 检测 的 门 控 记 忆 网 络 方法 。 该 方 
法 中 ， 基 于 HTTP 网 络 通信 的 请 求 内 容 被 表示 为 低 维 实 值 向 量 
序列 ， 增 强 了 数据 的 特征 表示 能 力 ， 同 时 ， 有 具有 长 时 记忆 能 力 
的 门 控 循 环 神经 网 络 模型 被 用 于 建 模 序列 中 长 间隔 的 词 问 关系 ， 
有 效 提升 了 分 类 检测 效果 。 与 传统 方法 相 比 ， 在 CSIC2010 公 


开 数 据 集 上 ， 所 提 门 控 记 忆 网 络 方法 较 大 幅度 地 提高 了 网 络 攻 
击 检测 的 准确 率 和 召回 率 。 
1 网 络 攻击 检测 的 门 控 记 忆 网 络 方法 


13. 门 控 记 忆 网 络 方法 的 流程 框架 
图 1 是 所 提出 网 络 攻击 检测 的 门 控 记 忆 网 络 方法 的 流程 
架 。 其 中 ， 攻 击 用 户 通 过 Web 协议 发 出 攻击 请 求 ， 该 请 求 数 ] 


是 网 络 攻击 检测 的 原始 数据 。 


HU MI 


攻击 用 户 EERE ug DEBE emn 
训练 数据 判定 结果 

(正常 数据 + 攻击 数据 ) Gum 

图 1 网 络 攻击 检测 的 门 控 记忆 网 络 方法 流程 框架 


该 流程 框架 中 ， 首 先 从 网 络 交 换 机 抓 取 并 解析 数据 包 ; 然 
后 解析 后 数据 ， 经 过 低 维 实 值 特征 表示 转变 为 门 控 记 忆 网 络 模 
型 的 输入 数据 ， 最 后 通过 预先 训练 的 门 控 记忆 网 络 模型 对 未 知 
类 别 的 输入 数据 进行 预测 ， 判 定 是 攻击 请 求 或 正常 请 求 。 门 控 
记忆 网 络 模型 的 参数 是 在 训练 数据 上 预先 学 习 得 到 的 。 训 练 数 
据 和 包含 正 常数 据 和 攻击 数据 两 类 样本 。 经 过 低 维 实 值 特征 表示 
输入 模型 进行 训练 。 该 流程 框架 的 核心 内 容 是 低 维 实 值 特征 表 
示 和 门 控 记 忆 网 络 模型 。 
1.2 ” 低 维 实 值 特征 表示 

网 络 攻击 的 实施 依赖 于 网 络 通信 ， 且 多 以 异常 的 通信 请 求 
出 现 。 通 常 ， 通 信 请 求 可 以 被 看 做 是 一 个 命令 字符 串 ， 而 异常 
的 网 络 通信 请 求 数据 中 通常 包含 特殊 的 命令 字符 串 ， 如 
systemInfo alert, SELECT 等 ， 因 此 可 以 通过 大 
含 的 字符 串 进行 分 类 来 检测 网 络 攻击 。 
图 2 是 基于 HTTP 网 络 协议 攻击 数据 的 低 维 实 值 特征 表示 
过 程 。 该 过 程 主要 包括 词 切 分 、 量 化 和 降 维 三 个 步 又。 
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图 2 HTTP 网 络 协 议 攻击 数据 的 低 维 实 值 特征 表示 过 各 
1) 词 切 分 “对 于 通信 请 求 字符 串 而 言 ， 


其 内 容 是 根据 网 络 


协议 的 规则 构造 的 ， 故 其 格式 是 具有 一 定 规范 的 ， 也 是 能 够 被 


转换 成 


一 系列 “单词 ?或 符号 组 成 的 文本 。 例 如 ， 针 对 网 络 服 


务 器 的 访问 很 大 一 部 分 是 基于 HTTP 协议 的 ， 而 请 求 数据 的 载 


荷 部 分 中 所 提交 的 参数 字符 串 ， 可 以 视 为 由 符号 “&" 分 隔 的 若 
干 段 ， 每 个 段 内 存在 键 和 值 两 部 分 ， 以 “一 "连接 。 因 此， 可 以 将 


请 求 字符 串 分 隔 成 若干 “单词 ?或 符号 的 序列 ， 即 使 “单词 ?或 符 
号 是 没有 字面 意义 。 在 此 基础 上 ， 借 助 现 有 的 文本 表示 技术 实 


现 对 请 求 数据 的 量化 表示 。 


2) 量化 ”在 词 切 分 2 


常 将 每 个 词 表示 为 
在 词 ; 


制 向 量 ， 


du 


[ 表 中 第 ;个 单词 的 第 个 元 素 被 设置 为 1， 其 他 


后 , 传统 文本 分 类 的 特征 表示 方法 通 


qM 


one-hot [5] & , one-hot 向 量 是 


元 素 都 被 设置 为 0， 以 此 唯一 地 表示 一 个 词 。 对 于 一 个 由 了 个 
词组 成 的 序列 而 言 ， 可 以 表示 为 一 个 长 度 为 工 的 one-hot 序列 
量 是 一 个 稀 疏 高 维 二 值 向 量 ， 


(Xo Xs. X,) 。 但 是 ，one-hot 向 量 是 


该 特征 表示 在 计算 是 耗 时 较 大 ， 且 难以 度量 两 个 词 之 间 的 距离 


《相似 度 ) XR, WP 
3) 降 维 


one-hot 


个 词 是 语义 相近 的 同义词 。 
为 了 克服 one-hot 


向 量 表示 的 不 足 ， 本 文 将 一 个 


向 量 x, 投影 为 一 个 低 维 


空间 中 的 实 值 向 量 z eR Cd 


为 空间 维度 ) 。 该 投影 过 程 可 以 通过 对 向 量 x 左 乘 一 个 投影 矩 


WE M egi S53 GR (1) ) ,其 中 |y | 是 无 重复 词 


中 词 的 个 


z, = Mx, a) 


矩阵 M 可 以 通过 随机 赋值 得 到 或 通过 包含 一 个 隐 层 的 网 
络 学 习 得 到 。 实 验 表 明 , 通过 学 习 得 到 的 矩阵 jy 具有 更 好 的 低 


RR. WEE M 学 习 的 
其 相 邻 的 下 一 个 one-hot 向 量词 ， 以 此 来 学 习 两 个 共 现 词 之 间 


网 络 输入 一 个 one-hot 词 向 量 ， 输 出 与 


的 关系 。 网 络 训练 完成 


降 维 表示 将 


个 高 维 稀 


个 低 维 实 值 向 量 序列 (z 


1.3 


门 控 记 忆 网 络 模型 


EN 


$ 


后 ， 其 隐藏 输出 即 为 低 维 实 值 向 量 z 。 
这 的 one-hot 序列 (x ,xX,,…,X ) 转换 为 一 


3 乙 ) o 


门 控 记 忆 网 络 模型 
特 回归 分 类 器 组 成 。 蓝 
建 模 ， 抽 取 长 时 记忆 
求 数据 的 二 类 分 类 预测 判定 。 
1.3.1 门 控 循 环 神经 网 络 


一 个 门 控 循环 神经 网 络 和 一 个 逻辑 斯 


中 ， 门 控 循 环 神经 网 络 对 序列 数据 进行 


竺 征 表示 ; 逻辑 斯 特 回归 分 类 器 完成 对 请 


近年 来 ,循环 神经 网 
其 结构 主要 由 一 个 循环 过 
其 中 : BEZI 


络 在 语音 识别 领域 取得 了 优越 的 成 果 ， 
ER p 


hz eW,z + Rh, + b) (2) 


的 激活 h EB r 时 刻 的 输入 z 和 7 p ISI Da HR h, 
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决定 ， 如 图 3 左 侧 所 示 。 循 环 神经 网 络 通过 循环 迭代 计算 
h >h 使 信息 可 以 得 到 长 时 记忆 ， 对 于 序列 数据 具有 优秀 的 
建 模 能 力 。 但 是 经 典 的 循环 神经 网 络 在 训练 模型 时 面临 着 梯度 
弥散 问题 P20。 为 了 克服 该 问题 ， 长 短期 记忆 Cong short-term 


memory, LSTM) 单元 结构 08223 被 引入 循环 神经 网 络 。 该 结构 
输入 门 、 遗 忘 门 、 输 出 门 等 门 控 单元 组 成 ， 以 维持 长 时 序列 数 
ey 于 网 络 由 一 系列 门 控 单元 组 成 ， 也 被 称 为 门 


控 循 环 神经 网 络 。 


1.3.2 逻辑 斯 特 回归 分 类 器 
对 于 网 络 攻击 检测 二 
据 ， 经 低 维 


类 分 类 问题 ， 输 入 为 网 络 协议 请 求 数 
实 值 特征 表示 转换 为 长 度 为 工 的 向 量 序列 
经 门 控 循环 神经 网 络 提取 长 时 记忆 特征 六 ; 最 
终 通过 一 个 二 类 分 类 器 进行 分 类 输出 。 

本 文采 用 逻辑 斯 特 回 归 分 类 器 。 训 练 时 ， 给 定 一 组 二 值 标 
签 样本 {Ch9,y):i=1.…,N}， 其 中 : np 为 第 i 个 样本 的 特征 向 
E yO e{1,0} 为 其 对 应 的 真实 类 别 标签 (1 表示 攻击 样本 ，0 


受 门 控 循 环 神经 网 络 1 下 的 启发 ， 网 络 攻 击 检 测 的 门 控 记 
忆 网 络 单元 结构 如 图 3 右 侧 所 示 。 其 中 ，z 为 低 维 实 值 特征 表 


示 的 输入 向 量 ，h_ 为 网 络 1_1 时 刻 的 隐 状 态 ;hh 为 网 络 ; 时 刻 
输出 的 隐 状 态 ，h 不 仅 作为 1 +1 时刻 的 输入 ， 还 作为 计算 最 终 


输出 结果 的 输入 。 虚 线 框 中 ,箭头 表示 数据 流向 ; Xx 表示 点 乘 
操作 ; ++ 表示 向 量 加 操作 ; 1-1- 表示 对 输入 x 变量 1-x 操作 ; 
o 表示 sigmoid 激活 操作 ;， tanh 表示 tanh 激活 操作 。 低 维 实 值 
向 量 序列 (Z, Z.z) 进入 门 控 记 忆 网 络 后 会 按 序列 展开 进行 
计算 , 当 最 后 一 个 向 量 z 进入 网 络 经 计算 后 , 对 应 输出 h, 即 为 
门 控 记忆 网 络 的 输出 。 


(计算 输出 ) 


© | > h; 
| (循环 输入 ) 
A 


图 3 循环 神经 网 络 ( 左 ) 与 门 控 记 忆 网 络 单元 


cl 


结构 ( 右 ) 


形式 化 如 下 : 
r,-e(Wz +Rh ,+b,) G) 
u, -o(W,z am Rh ,*b) (4) 


IP: WW, 与 用 ,有 分 别 为 输入 z 和 隐 状 态 h ,的 权重 ; 
b,b, 为 对 应 的 偏 置 ，c() 29 sigmoid 函数 。 最 终 输出 : 

h -ü-u)oh ,«u oh: (5) 
其 中 : 户 =o(Wz AIG(RA )eb): 9() 为 tanh 函数 ，Q 为 
元 素 点 乘 ，W, 、 用 IL b, 分 别 为 输入 和 隐 状 态 的 权重 ， 以 及 对 
应 偏 置 。 万 的 计算 结果 受 重 置 门 控制 ， 若 上 =0 ， 则 
r, (Rjh, 1)=0， 即 1-1 时 刻 的 信息 输入 Bh 用 , 此 时 
隐 含 信息 万 仅 由 :时 刻 输 入 信息 了 控制 ， 即 万 遗 筷 了 其 历史 信 
息 h，， 被 1 时 刻 输入 信息 z 重 置 。 最 终 输出 h 是 由 控制 加 
权 平均 1_1 时 刻 隐 含 信息 h ,与 1 时 刻 隐 含 信息 万 得 到 。 

与 LSTM 相 比 ， 门 控 记 忆 网 络 单元 结构 将 输入 门 和 遗忘 
整合 为 更 新 门 , 以 平衡 /1 时 刻 的 激活 poene 
ho ANER TEINR ARRE E mi r1 ALTES 
Rho FIE BE Ee 256 3 RA K R EEE RA 
h, > "M 作为 分 类 器 的 输入 。 


图 3 中 门 控 记忆 网 络 单元 结构 主要 由 重 置 门 和 更 新 门 组 成 ， 


表示 正常 样本 ); N 为 训练 样本 个 数 。 根 据 最 大 似 然 估 计 原 理 ， 
计算 所 有 样本 的 似 然 如 下 : 


LJ (RA -AAD — v 


其 中 : Av) =1/0+exp -0 v) 逻辑 斯 特 函 数 ， 其 值 可 表示 对 
输入 样本 v 判定 为 攻击 样本 的 概率 ; 6 为 待 学 习 参 数 向 量 。 为 
了 方便 优化 ， 将 最 大 化 工 转变 为 最 小 化 负 的 对 数 似 然 ; 
J --logL 
=-log[ [AAV a- ur» 


i a : m (n 
三 -D (o Ah +logd - Z5 (FP?) ) 


= (0 logC 7; (ho) 4 (1 — y ?)logd — (ho)) 


对 于 一 个 训练 样本 而 言 , 式 (7) 中 求 和 的 两 项 只 有 一 项 不 
为 零 ( 取 决 于 标签 yo2 是 1 或 0) 。 当 最 小 化 优化 目标 
J 意味 着 需要 使 五 (h?) 变 大 ; 当 ,， 则 需要 使 1- mh) 
变 大 。 

实际 过 程 中 ， 逻 辑 斯 特 回归 分 类 器 可 与 门 控 记忆 网 络 连 接 
起 来 共同 训练 ， 门 控 记 忆 网 络 输出 隐 状 态 n 通过 一 个 一 个 全 
连接 层 来 计算 输出 g=6 hh? ， 再 连接 一 个 sigmoid 层 实现 
0 =1/(+exp(-9)) 的 计算 ， 最 后 损失 层 计 算式 (7) 结果 。 优化 


a). 
y 


时 ， 采 用 随机 梯度 下 降 算法 进行 参数 更 新 ， 从 后 向 前 先 计 算 偏 
导数 6J/6o ， 再 根据 反 向 传播 算法 ， 依 次 计算 各 层 的 偏 导数 以 


实现 网 络 参 数 的 学 习 。 

测试 时 , 将 损失 函数 替换 为 一 个 逻辑 斯 特 函 数 e (v) 。 当 需 
要 预测 判定 一 个 新 的 样本 是 属于 “1” 还 是 属于 “0” 时 ， 则 可 以 通 
i HE zh? 与 1- 厂 (ho) 的 大 小 来 进行 判定 。 若 
ARR) >11- AHO) ， 则 判 为 "1”， 和 否则 判 为 "0”。 
1.44 门 控 记 忆 网 络 方法 的 实现 细节 

对 于 CSIC2010 数据 集 ， 先 从 中 提取 的 通信 请 求 数据 。 对 
T GET 请 求 直接 提取 URI 信息 ， 对 于 PUT 和 了 POST 请 求 提取 
URI 和 负载 数据 并 将 两 者 拼接 起 来 ， 作 为 低 维 实 值 特征 表示 的 
输入 ， 经 过 低 维 实 值 特征 表示 转换 为 一 个 词 向 量 序列 。 有 具体 实 
现时 ， 词 向 量 序列 由 一 个 词 索引 序列 和 一 个 词 索引 到 词 向量 的 
映射 矩阵 组 成 。 词 索引 序列 中 每 个 索引 对 应 一 个 预 训练 好 的 词 
向 量 ， 根 据 词 索引 可 从 词 索引 到 词 向 量 的 映射 矩阵 中 找到 词 向 
量 ， 该 表示 可 大 大 节省 空间 。 词 索引 到 词 向 量 的 查找 由 一 个 网 
RIRA Cembeddinglayer) 实现 。 值 得 注意 的 是 , 词 向 量 序列 
会 根据 数据 集 的 整体 特征 被 统一 截断 或 补 齐 为 长 度 56 的 序列 ， 


lm 


201805.00455v1 


Xiv: 


china 


录用 稿 


的 是 可 以 批量 输入 数据 进行 训练 。 


门 控 记忆 网 络 方法 采用 了 深度 学 习 的 架构 体系 ， 其 具体 框 
WUR 1 所 示 。 
dl 门 控 记 忆 网 络 方法 框架 
网 络 层 描述 
MAE 输入 词 索引 序列 ， 不 做 处 理 直 接 输出 
输入 词 索 引 序列 和 词 索 引 到 词 向 量 的 映射 矩阵 ， 将 词 
RAE 
索引 转化 为 词 向 量 输出 
"m" 输入 词 向 量 序列 ， 门 控 记忆 单元 计算 的 最 后 一 个 隐 状 
门 控 记 忆 层 
态 作 为 输出 
Dropout 层 输入 隐 状 态 ， 以 一 定 概率 丢弃 权 值 后 输出 
全 连接 层 通过 全 连接 映射 到 两 个 值 输出 
Softmax 层 输出 两 个 数值 ， 归 一 化 为 两 个 概率 值 输出 
表 中 , 输入 层 和 嵌入 层 完 成 低 维 实 值 特征 表示 ; Dropout 层 
是 深度 学 习 中 用 于 抑制 过 拟 合 的 主要 手段 ， 使 用 该 策略 可 以 获 
得 更 好 的 测试 精度 ; 全 连接 层 和 Softmax 层 实现 逻辑 斯 特 回 归 ， 
对 应 计算 式 (6) 中 的 五 (2) =1/GL+exp(-67h0)) ， 全 连接 完 


成 线性 映射 计算 ，Softmax 对 映射 后 的 两 个 值 归 
AU) 和 1- Fh) o VZR, 
和 参数 更 新 ; 测试 时 ， 网 络 计算 oon) 和 


定 类 别 标签 。 


tensorflow 平台 ， 


] CPU 完成 。 
的 隐 状 态 旨 
为 0.9， 然 


E 


后 将 


佳 度 为 128， 其 后 


实现 门 控 记 
网 络 输入 为 gq 


128 维 输出 全 


网 络 接 一 


网 络 计算 


一 化 得 到 
员 失 并 进行 梯度 回 传 


1- (Rf) Ah. #] 


基于 Windows 7 操作 系统 (3.5 GHz EFi, 8 GB 内 存 ) 和 


忆 网 络 方法 ， 


所 有 训练 和 测试 均 采 


维 的 向 量 序列 


连接 映射 到 2 


， 单 层 门 控 记 忆 单 元 


个 Dropout 层 ，Dropout 率 


维 结果 输出 。 训 练 网 


络 时 ， 将 批 处 理 大 小 设置 为 128， 学 习 率 设置 为 0.001。 训 练 代 


数 为 10， 
2 


实验 以 CSIC2010 数据 外 
自动 生成 


上 万 条 


使 用 Adam 优化 器 


实验 结果 与 分 析 


护 系统 ， 它 是 由 


作 的 。 该 数据 集 针 对 的 是 
的 数据 被 分 为 训练 (只 有 


的 HTTP 协议 请 求 ， 主 要 上 
6 班 牙 研究 委员 会 (CSIC) 信息 安全 而 


| 练 。 


作为 测试 数据 集 。 


该 数据 集 包含 


于 测试 网 络 攻 击 防 


qu 


实验 中 ， 采 用 的 是 测 


个 异常 请 求 。 


试 集中 


电子 商务 Web 应 用 程序 ， 


究 所 制 


王家 宝 ， 


ChinaXiv 合 
网 络 攻 击 检测 的 门 控 记 忆 


AE 


T: 


解码 ， 参 数 项 、 键 值 对 、 特 殊 符 号 的 分 割 ， 请 求 数据 
以 为 后 续 低 维 实 值 特征 表示 提供 基础 。 
2.1 方法 对 比 

为 了 验证 本 文 方法 的 有 效 性 
方法 进行 对 比分 析 。 传 统 方法 


层 学 习 方 法 采 


AN 


HHF 


网 络 方法 


的 分 词 可 


在 特征 表示 方面 
用 1.2 节 中 


测 方 
LSVM 采 


面 ， 传 统 方法 


的 参数 设置 如 下 : 
线性 分 类 器 。NN 采用 两 个 隐 


为 50 和 10。 


KNN 设 
中 的 最 小 样本 数 被 设置 为 3。 


所 有 方法 


采用 


随机 分 为 10 份 ， 其 中 一 份 


10 折 交 叉 验 证 技术 进行 结果 评估 。 数 据 身 


于 测试 ， 


BFE 


] TF-IDF ifi 
Kd 


EX. 


， 分 别 与 传统 方法 和 深度 学 习 
包括 朴素 贝 叶 斯 (naive Bayes, 
NB) 、 线 性 支持 向 量 机 (linear support vector machine, LSVM ) ~ 
神经 网 络 Cneural network, NN )、K- 近 邻 (K-near neighbor, KNN), 
决策 树 (decision tree, DT) 。 深 度 学 习 方法 包括 LSTM. 

i, 传统 方法 统一 采 
HR HIZ 


FE 向 量 。 深 


在 分 类 检 


邻居 参数 为 3。DT I 


23 余 


于 训练 。 


NB 恒定 的 参数 为 0.01。 
屋 ， 隐 单元 个 数 分 别 


HAE, HT 


Tit 


10 次 运 


行 的 结果 取 平 均 得 到 整体 性 能 。 测 试 结果 以 准确 率 、 召 回 率 和 
Fl 分 数 作 为 评测 指标 。 实 验 结果 见 表 2。 


表 2 实验 训练 和 测试 数据 


方法 准确 率 召回 率 F1 分 数 
本 文 方法 0.984 0.985 0.985 
LSTM 0.977 0.979 0.978 
DT 0.925 0.917 0.920 
KNN 0.907 0.911 0.908 
NN 0.895 0.882 0.887 
LSVM 0.887 0.867 0.875 
NB 0.767 0.776 0.765 
由 表 2 可 以 发 现 ， 门 控 记 忆 网 络 方法 明显 优 于 其 他 方法 ， 


VERAIA E 


率 分 别 达 到 了 98.4% 和 98.5% 


的 
AER. 


ES ENSE 
TIE AF RU 


Hu 


2.2” 隐 变量 参数 分 析 


门 控 记 忆 网 络 中 ， 隐 状态 维度 是 影响 网 络 能 力 的 关键 参数 


已 发 布 


E 常 〉》 和 测试 (异常 和 正 
36 000 多 个 正常 请 求 和 25 000 多 


TO A 


该 数据 集中 


E X d 


十 请求 包含 多 种 网 络 攻击 ， 如 


SQL 注入 、 绥 冲 区 溢出 、 信 


跨 站 脚本 和 


请 求 也 被 视 为 异常 上 。 目 
的 Web Ji 


可 


KDD9%9 攻击 检测 数据 集中 的 攻击 很 多 都 已 过 时 ， 


参数 窜改 等 。 其 中 ， 旬 


息 收 集 、 


文件 披露 ，CRLF 注入 、 


ESSE 


(或 不 可 用 ) 资源 的 


前 ,由 于 个 人 隐私 保护 等 原因 ,公开 


新 型 的 攻击 类 型 。 


对 于 原始 的 请 求 数 
求 数 据 来 进行 检测 。 请 求 数 提 
串 分 割 。 分 词 依据 HTTP 请 求 特点 进 


Ff 检测 问题 的 数据 集 非常 少 ， 


诸如 DARPA 


不 包括 许多 


居 ， 实 验 主要 提取 GET, POST, PUT 请 
居 提 取 后 对 数据 进行 分 词 ， 即 字符 
行 , 主要 涉及 URL 中 字符 


因子 。 为 了 进 


Dropout Z5 73 0.9, 1H 


C2 


维 实 值 词 向 量 


条 件 下 , 模型 检测 方法 的 Fl 分 数 综合 性 能 。 


步 分 析 该 参数 变化 对 性 能 的 影响 。 本 
ERE 40. JA 


为 了 进 


, 较 LSTM 超出 0.7% 
率 ， 且 远 超 传统 方法 。 该 结果 表明 本 文 
E CERE 


节 中 国定 
不 同 维 
步 说明 本 


文 方法 的 有 效 性 ， 同 时 对 比 不 同 参 数 条 件 下 LSTM 方法 的 Fl 
分 数 ， 实 验 结果 如 图 4 所 示 。 此 外 ， 不 同 参 数 条 件 下 ， 模 型 训 
练 耗 时 如 表 3 所 示 。 
表 3 模型 训练 耗 时 /min 
方法 \ 隐 变量 维度 16 32 64 128 256 512 
本 文 方法 17 24 40 58 132 416 
LSTM 17 24 36 67 175 | 539 
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Dropout 率 


图 4 不 同 隐 节 点 维度 下 的 Fl 分 数 


图 4 和 表 3 可 以 得 到 如 下 结论 : 


幅度 越 来 越 小 ; 


a) 模型 的 性 能 随 着 参数 维度 的 增加 而 不 断 增加 , 但 增加 的 


b) 对 比 LSTM 模型 ， 可 知 本 文 方法 在 相同 参数 条 件 下 较 


LSTM 模型 结果 更 好 ; 


c) 模型 计算 耗 时 会 随 着 维 数 的 增加 而 增加 ， 故 实际 应 用 需 


要 在 效果 与 性 能 之 间 进 行 折 中 。 
2.3 Dropout 策略 分 析 


考虑 到 CSIC2010 数据 集 的 规模 中 等 ， 为 了 抑制 学 习 的 过 


拟 合 问题 ， 


在 模型 训练 中 ， 加 入 了 Dropout 策略 。 


该 策略 中 


Dropout 率 决 定 了 模型 的 效果 。 故 研究 固定 隐 变 量 维度 为 128， 


IAE SR TR] I8] E 4 


EREN 40 的 条 件 下 ， 不 同 Dropout 率 的 影响 。 
图 5 给 出 了 不 同方 法 的 Dropout 率 的 结果 。 


60 


-全 -本文 方法 
-[* LSTM 


0 0.2 0.4 


0.6 0.8 1 


Dropout 率 


图 5 可 以 得 到 : 


幅度 不 断 减 小 。 


b) Dropout 策略 〈 较 大 的 Dropout 率 ) 


图 5 不 同 Dropout 率 下 的 Fl 分数 


a) 模型 泛 化 性 能 随 着 Dropout 率 增加 而 不 断 增长 , 但 增长 


有 很 好 的 抑制 过 


拟 合 的 能 力 ， 并 取得 了 较 好 的 性 能 。Droponut 率 为 0.9 时 ， 达 到 


T 98.409686 F1 分数。 
2.4 低 维 实 值 词 向 量 分 析 


低 维 实 值 词 向 量具 有 很 好 的 特征 表示 能 


, 可 以 度量 不 司 


词 间 的 相似 性 关系 。 具 有 相似 关系 或 相同 属性 的 词汇 在 向 量 空 
间 中 上 距离 更 近 ， 易 聚集 在 一 起 。 为 了 说 明 低 维 实 值 词 向 量 的 表 


示 能 力 ， 本 文选 取 部 分 低 维 实 值 词 向 量 
图 6 所 示 。 


入 二 维 平面 显示 词 间 的 关系 ， 如 


通过 t-SNE DYHR 


" 


select 
like 20 
script 


proyjocia "4 
alert 
cp 


waitfor 0 
login 
password modipgin 
modo -10 
pwd 
email passwort d 
ntc 20 
provincia pwd 
cp 
-20 10 0 10 20 30 


图 6 给 出 了 13 个 低 维 


6 低 维 实 值 词 向 量 嵌 入 的 分 布 


实 值 词 向 量 的 仍 入 显示 。 其 中 select、 


like, script, alert, waitfor 是 SQL 入 侵 攻击 的 关键 词 ， 这 些 词 


在 嵌入 空间 中 均 聚 集 在 一 起 ， 而 正常 词汇 如 login, password 等 


则 呈现 随机 分 布 的 特性 ， 这 种 相似 词 聚集 的 特性 更 容易 帮助 分 


类 器 学 习 网 络 攻击 行为 的 模式 。 


此 外 ， 不 同 的 低 维 实 值 词 向 量 维度 也 会 对 模型 的 精度 产生 


影响 。 为 了 在 
选取 10、20、40、80、 


St HE SIE B T8] T8] 82 
160、320， 测 量 模型 对 攻击 检测 的 效果 
和 耗 时 。 图 7 给 出 了 对 应 的 测试 结果 。 


度 对 算法 性 能 的 影响 ， 分 别 


耗 时 (mins) 


96 一 一 一 一 
10 40 80 


160 320 


图 7 


图 7 可 知 : 


氏 维 实 值 词 向 量 不 同 维度 下 的 Fl 分 数 和 耗 时 


a) 本 文 方法 随 着 低 维 实 值 词 向 量 维度 的 增加 , 检测 效果 也 
不 断 增加 ， 在 维度 为 160 时 ， 达 到 了 99.109680 Fl 分 数 ; 


DIE EDAH 
不 断 增长 ， 且 基本 保持 线 怕 


E 时 会 随 低 维 
增长 速率 ; 


实 值 词 向 量 维度 的 增加 


c) 在 实际 应 用 中 , 可 根据 应 用 的 差异 选择 一 定 的 低 维 实 值 
词 向 量 维度 以 实现 速度 和 效果 的 折 中 。 


3 ARA 


针对 网 络 攻击 检测 问题 ， 本 文 提出 了 一 个 门 控 记忆 网 络 方 


ik, (E CSIC2010 数据 集 上 达到 了 98.40% 的 Fl 分 数 ， 超 越 了 
传统 方法 和 LSTM 等 检测 方法 。 该 方法 实现 简单 、 效 果 显 著 。 


同时 ， 算 法 在 检测 时 速度 


可 达到 实时 应 用 


需要 。 但 是 ， 由 于 数 


据 特征 低 维 表示 的 学 习 通 


常 需要 一 定 规模 的 数据 支撑 ， 所 以 本 


文 需要 大 量 网 络 请 求 数据 来 进行 学 习 。 


此 外 ， 本 文 方法 仅 采 ) 


j 单 层 门 控 循 环 神经 网 络 结构 ， 下 一 


录用 稿 
步 拟 采用 多 层 网 络 结构 进一步 提高 检测 精度 。 考 虑 到 多 层 网 络 


SEO 


的 时 间 耗 费 ， 可 根据 实际 情况 构造 两 层 或 三 层 网 络 结构 ， 以 折 
中 检测 精度 和 时 间 耗 费 。 同 时 ， 为 了 进一步 验证 本 文 的 效果 ， 
后 续 将 在 实际 网 络 环境 中 进行 测试 , 以 检验 方法 的 实际 可 用 改 
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